exposure bias
テストでいつも見たことのある問題が出たらうまく解けるけど、ちょっと変わった問題が出ると困ってしまうみたいなもの
先生が正しい英語を教えてくれるのと同じように、機械翻訳のロボットも正しい翻訳をたくさん見て学習している。
でも、本番で実際に翻訳をするとき、ロボットは自分で考えて翻訳しなければなりません。これが露出バイアスの問題点。ロボットは学習の時にはいつも正しい翻訳を見ていたから、間違ったり変な翻訳に出会うと、どう対応していいかわからなくなる。
exposure biasとは、言語モデルが言語を生成する際に、学習時は、decoderの系列全体が与えられるが、予測時は、decoderが出力したトークンも以後の系列の予測の入力となることによって生じるバイアスのことで、当然decoderの系列の長さ=回答の長さが長いほどバイアスが生じやすくなる傾向があります。
論文
On Exposure Bias, Hallucination and Domain Shift in Neural Machine Translation
概要
この文書は、「ニューラル機械翻訳におけるexposure バイアス、幻覚、およびドメインシフト」に関する研究論文です。主なポイントは次のとおりです。 exposure bias
ニューラル機械翻訳(NMT)の標準的な訓練アルゴリズムは、露出バイアスと呼ばれる問題に直面しています。これは、訓練中と推論中でのモデルの露出が異なるため発生するバイアスです。モデルは訓練中に正確な歴史データのみを見ているため、推論時の誤った予測に対処する能力が不足しています。
幻覚問題
NMTは、特にドメインシフトした場合に、入力とは全く関係のない「幻覚」を生成する傾向があります。この研究では、露出バイアスと幻覚の間に実証的な関連があることを示しています。 最小リスク訓練(MRT)
露出バイアスを回避するための代替訓練手法として、最小リスク訓練(MRT)が提案されています。MRTは、訓練中の露出バイアスを回避し、ドメインシフト下でのモデルの堅牢性を高めることが示されています。 ビームサーチ問題
訓練における露出バイアスは、ビームサイズを増やすことによる翻訳品質の低下(ビームサーチ問題)とも関連しています。MRTはこの問題を緩和する効果があります。
この研究は、ニューラル機械翻訳におけるexposure バイアスの実用上の影響を深く理解し、exposure バイアスを減少させるための訓練手法の重要性を強調しています。